Alors que les noyaux 1D traitent les données comme un flux linéaire, Prise en compte de la disposition 2D passe au paradigme du traitement des structures "tuiles". Les matériels modernes GPU optimisent les performances en regroupant les éléments en grilles 2D afin de maximiser la localité spatiale et d'utiliser des cœurs tensoriels spécialisés.
1. Au-delà de l'élément par élément
En 1D, chaque thread calcule un scalaire. Dans les noyaux 2D de Triton, le programme opère sur des blocs entiers simultanément. Cela généralise l'addition vectorielle simple en transformations matricielles complexes telles que le GEMM.
2. Localité spatiale
Comprendre comment les éléments voisins (horizontaux et verticaux) sont chargés dans le cache est la transition entre les noyaux éducatifs et ceux prêts pour la production. Cela garantit que même avec une mémoire transposée ou padée, le noyau accède aux données sans gaspiller la bande passante.
3. Le chemin vers la production
La maîtrise des dispositions 2D permet de partitionner les données entre Multiprocesseurs de flux (SMs) efficacement. Par exemple, une copie matricielle reconnaissant largeur/hauteur peut charger des tuiles de 16×16 dans la mémoire rapide sur puce, tout en respectant le "pas" physique du tenseur.